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[ 目的 ] 将 博文 参与 者 共 现 作为 特征 ,探析 其 在 博文 聚 类 中 的 价值 。[ 方法 】 两 步 聚 类 : 构建 不 同 博文 参 


与 者 的 共 现 和 矩阵 并 转化 为 相关 矩阵, 采用 近邻 传播 (Affinity Propagation, AP) 算 法 完成 第 一 步 聚 类 ; 将 AP 聚 类 结 
果 的 质心 作为 初始 聚 类 中 心 ,对 词 项 进行 位 置 加 权 , 利用 K-means 算法 完成 博文 内 容 的 第 二 步 聚 类 。[ 结果 】 综 
合 博文 参与 者 共 现 与 词 项 位 置 加 权 的 聚 类 算法 平均 准确 率 与 纯度 分 别 达 到 0.66 和 0.37， 显 著 优 于 对 比 实验 。[ 局 
限 】 本 研究 的 主要 贡献 是 引入 参与 者 共 现 作为 特征 改进 博文 聚 类 效果 , 对 于 该 特征 甚 少 的 博文 聚 类 价值 有 限 。 
[ 结论 ] 整合 词 项 与 博文 参与 者 特征 的 博文 聚 类 显著 地 提高 了 聚 类 质量 ,两 步 法 聚 类 也 为 K-means 算法 初始 聚 类 


中 心 的 选择 提供 了 可 行 的 解决 方案 。 
关键 词 : 共 现 分 析 文本 上 聚 类 博文 参与 者 ”初始 聚 类 
分 类 号 : G353 


dub 


1 5l 


1973 年 ,Small 提出 了 共 引 理论 ,该 理论 的 核心 
是 共 引 能 反映 两 篇 文献 在 内 容 方 面 的 相似 性 , 共 引 关 
系 的 测度 可 用 于 揭示 科学 结构 。 其 后 , 学 者 依据 共 现 
思想 从 作者 .关键 词 等 角度 ,进行 了 作者 同 被 引 外 以 及 
共 词 分 析 口 。 随 着 Internet 的 普及 , Larson" 15:127 E 484fE 
广 到 Web 中 开展 了 共 链 分 析 ， 用 于 揭示 不 同 网 站 间 的 
内 容 主题 关系 。 目 前 ,从 共 引 、 共 词 以 及 共 链 等 具体 
应 用 中 抽象 出 来 的 共 现 分 析 已 经 成 为 文献 、 信 息 以 及 
科学 计量 学 的 重要 研究 方法 , 通过 它 可 以 发 现 研 究 对 
象 间 的 杂 下 关 系 ,挖掘 潜在 知识 ,揭示 对 象 所 代表 主 
体 的 结构 与 变化 5 。 

在 共 现 分 析 的 应 用 方面 有 学 者 将 词汇 "1、 引 
文 叫 、 链 接 咏 等 特征 的 共 现 应 用 于 文本 聚 类 , 改善 了 
聚 类 质量 。 作 者 同 被 引 分 析 能 够 划分 作者 群 、 确 定 领 
域 核心 作者 5。 社 会 化 媒体 中 的 共 推 荐 关系 5 体现 了 
用 户 共 同 兴 趣 、 相 似 背 景 等 同 质 性 特征 , 为 构建 社区 
网 络 提 供 了 依据 。 相 关 研 究 "1 发现， 用 户 兴趣 的 稳 


m} 


定性 使 其 在 某 段 时 间 内 较 可 能 参与 同一 主题 的 交流 ， 
而 通过 长 期 互动 、 相 同 背 景 用 户 推 荐 等 方式 建立 起 的 
关注 、 好 友 等 关系 能 让 更 多 兴趣 相投 的 用 户 加 入 到 话 
题 的 讨论 中 。 

作为 社交 媒体 的 用 户 , 笔者 发 现 博客 中 一 个 有 趣 
的 现象 ， 即 在 相同 或 者 相近 主题 的 博文 中 ， 稼 会 出 现 
相当 数量 的 共同 参与 者 。 共 现 思 想 以 及 文献 [9-12] 等 的 
研究 成 果 给 笔者 的 启示 是 : 博文 参与 者 的 共 现 应 该 可 
以 作为 博文 聚 类 的 特征 。 文 献 [15-17] 的 研究 成 果 则 提 
供 了 有 益 的 实证 研究 基础 ， 提 示 了 博文 参与 者 的 共 现 
与 博文 主题 之 间 存 在 相关 关系 。 据 此 ,本 文 将 参与 者 
共 现 强度 用 于 测度 博文 的 主题 相似 度 , 通过 共 现 分 析 
挖掘 出 隐 含 的 主题 关联 。 

本 文 将 参与 博文 撰写 、 评 论 、 推 荐 的 用 户 定义 为 
该 博文 的 参与 者 集合 。 采 用 两 步 法 完成 聚 类 : 

(1) 构建 不 同 博文 的 参与 者 共 现 矩阵 并 将 其 转化 为 
相关 和 矩阵 , 采用 近邻 传播 AP 算法 吧 完 成 第 一 步 聚 类 。 

D 将 AP 聚 类 的 质心 作为 初始 聚 类 中 心 ,利用 
K-means 算法 以 词 项 位 置 加 权 为 特征 完成 第 二 步 聚 类 。 


通讯 作者 : 化 凯 乐 , ORCID: 0000-0001-9269-8669, E-mail: njugong@163.com。 
* 本 文系 国家 自然 科学 基金 面 上 项 目 “ 融 合 范式 视角 下 的 链接 分 析 理 论 集 成 框架 及 其 实证 研究 *( 项 目 编号 : 71273125) 和 中 国 科学 技术 信 


息 研究 所 合作 研究 项 目的 研究 成 果 之 一 。 
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实验 证 明 , 本 研究 中 的 博文 参与 者 共 现 分 析 能 
效 地 抽取 出 博文 中 隐 含 的 主题 关联 ， 第 一 步 聚 类 的 质 
心 有 效 地 解决 了 K-means 算法 初始 聚 类 中 心 不 稳定 的 
问题 中。 本 文 的 研究 工作 为 共 现 分 析 在 信息 检索 、 文 
本 挖掘 和 知识 发 现 的 应 用 提供 新 的 、 有 益 的 证 据 。 


2 相关 研究 


21 基于 共 词 分 析 的 文本 聚 类 研究 

共 词 (Co-word) 分 析 的 基本 思路 是 统计 词 项 在 同 
一 篇 文献 中 成 对 出 现 的 频次 , 并 基于 该 特征 完成 聚 类 
分 析 。Liu 等 四 将 文档 集中 高 频 共 现 的 词 项 作为 特征 ， 
实现 向 量 空间 降 维 。 常 鹏 等 C9 通 过 关联 规则 算法 抽取 
出 同一 语 境 中 的 两 个 词 作为 共 现 词 组 合 ， 以 此 为 向 量 
元 素 表 示 文 档 。Zhang OEHHA CoHC 算法 根据 词 
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合并 完成 聚 类 。 以 Zhang 等 [的 工作 为 基础 ， 肖 欣 延 
等 将 搜索 引擎 返回 结果 中 与 用 户 所 用 关键 词 频繁 共 
现 的 词 项 构成 重要 词 项 集 , 将 每 个 词 项 出 现 过 的 文档 
合并 为 对 应 的 基 类 , 依据 文档 重 受 度 进行 基 类 合并 ， 
并 利用 HowNet 的 语义 本 体 计算 类 间 相 似 度 优 化 聚 类 
结果 。 李 枫 林 等 "依据 词 频 、 位 置 等 特征 提取 文档 关 
键 词 ， 以 文档 间 的 关键 词 共 现 频 率 构建 共 词 矩阵 , 采 
用 层次 聚 类 法 完成 标签 聚 类 ， 再 依据 标签 组 合 实现 文 


档 聚 类 。 


2.0 ”基于 共 引 、 共 链 分 析 的 文本 聚 类 研究 

除了 基于 共 词 这 一 内 容 特 征 的 文本 聚 类 外 , 学 者 
还 将 共 引 、 共 链 等 外 部 特征 应 用 于 文本 聚 类 研究 。 算 法 
思路 主要 有 三 种 : 直接 将 共 引 、 共 链 特征 应 用 于 聚 类 研 
SEP. 将 基于 共 引 、 共 链 特征 的 相似 度 与 文本 相似 度 


项 共 现 关系 发 现 文档 集中 的 频繁 2 元 组 , 扩展 为 n 元 
组 后 去 除 宛 余 并 排序 ， 据 此 获得 候选 聚 类 标签 并 构建 
基 类 (共享 同一 短语 的 文档 构成 一 个 基 类 ), 通过 基 类 


表 1 


MARRANA, 两 步 法 聚 类 ， 即 先 利用 共 引 、 共 
链 特征 完成 第 一 步 聚 类 ， 然 后 再 采用 内 容 特 征 完 成 第 
二 步 聚 类 [5 。 表 1 列举 了 每 种 思路 的 主要 研究 成 果 。 


基于 共 引 、 共 链 分 析 的 文本 聚 类 研究 


思路 作者 文章 题名 研究 详细 思路 
Y, Link Based Clusteri fW 1 T 
Wanags oum quo peed Clustering OT ”将 Web 搜索 结果 的 共 链 分 析 用 于 度量 文本 的 相似 度 。 
年 接 基 于 引文 或 Kitsuregawa M Search Results 
链接 的 共 现 关系 ghvavD AnAlgorithm for Automatic 将 链接 分 析 的 单位 由 单一 网 页 拓展 为 主题 文档 集 ， 即 
进行 文本 聚 类 ie x a ie Web-page Clustering Using Link ”引用 该 主题 文档 集 的 链接 等 同 于 单一 网 页 。 基 于 此 进 
n Structures 行 共 链 分 析 并 完成 文本 聚 类 。 

He X, Zha H, Web Document Clustering Using ”将 Web 文 本 的 链接 关系 、 共 引 模 式 和 文本 内 容 相 融合 ， 
将 基于 引文 、 链 ”Ding CH Q, etall Hyperlink Structures 提出 新 的 相似 度 计算 方法 。 
接 共 现 关系 的 相 . ME 量 和 链接 关系 向 量 将 RS 
似 度 与 文本 内 容 Modha D S, Clustering Hypertext with 通过 构造 文本 向 量 和 链接 关系 向 量 ,将 文本 相似 度 和 
相似 度 融合 进行 Spangler W S P?! Applications to Web Searching 共 链 相似 度 加 以 融合 。 

X. FE ET 


RK 


顾 钧 ， 郑 晓 东 ， 


结合 引文 信息 的 生物 医学 文本 


IL gu 


出 一 种 融合 文本 内 容 信息 和 引文 信息 的 聚 类 算法 ， 


IKE gp 聚 类 研究 中 引文 相似 度 综合 考虑 了 引用 、 被 引 和 共 引 关系 。 
基于 引文 与 文本 RIS, UBL 基于 学 术 文 献 同 被 引 分 析 的 算法 构建 了 学 术 文 献 的 同 被 引 和 矩阵 ， 基 于 此 采用 层次 
的 两 步 法 聚 类 KET, 等 "1 K-means 算法 改进 研究 聚 类 获得 K-means 算法 所 需 的 K 值 以 及 初始 质心 。 


2.3 ”博文 聚 类 研究 


Hk 


善 了 单纯 以 标签 为 聚 类 特征 的 不 足 。Chen 等 "参考 社 


现 有 博文 聚 类 研究 多 集中 在 包含 题名 、 关 键 词 、 
标签 (Tagging)、 正 文 等 的 文本 特征 的 应 用 。Brooks SEP 
采用 TF-IDF 方法 从 博文 中 提取 出 少量 词 项 作为 标签 ， 
以 标签 为 特征 进行 聚 类 。 何 文静 等 加 利用 Web2.0 特 
有 的 社会 化 标注 系统 ,以 用 户 添加 的 标签 作为 特征 完 
RR., Zhang 等 外 利用 博客 网 站 、 用 户 、 博 文 、 分 
类 、 标 签 等 多 种 信息 对 社会 化 标注 系统 进行 扩展 , 改 


会 化 标注 的 概念 提出 一 种 基于 博客 搜索 提问 关键 词 的 
聚 类 算法 ， 通 过 收集 用 户 搜索 博文 时 的 提问 词 ， 利 用 
形式 概念 分 析 抽 取出 可 以 表征 博文 内 容 的 概念 , 以 此 
RX., Li 等 5 提出 多 特征 融合 的 聚 类 方法 ， 即 将 标题 、 
内 容 和 评论 三 部 分 作为 博文 特征 ,并 赋予 评论 较 高 权 
重 进行 聚 类 。 在 链接 特征 的 应 用 方面 ,Kopel 等 中 利用 
博文 的 内 容 关 系 、 基 于 XFN 链接 的 博 主 社交 网 络 关系 
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以 及 基于 WordNet 的 博文 主题 关系 计算 博文 相似 度 实 
现 聚 类 。 博 文 链接 特征 在 其 他 方面 的 应 用 主要 包括 社 
区 发 现 、 博 主推 荐 、 博 文 信息 传播 "~ 等 。 
2.4 启 示 

上 述 研 究 的 结果 显示 : 采用 共 词 、 共 引 以 及 共 链 
特征 的 聚 类 算法 均 取 得 了 更 优 的 效果 。 从 而 验证 了 
Smalli 的 共 引 分 析 思 想 ， 即 频繁 成 对 出 现在 相同 语 境 
的 特征 是 较为 稳定 的 组 合 , 可 以 表达 潜在 的 主题 信 
息 。 因 此 ,以 不 同 博文 参与 者 的 共 现 信息 为 特征 开展 
探索 性 的 聚 类 研究 是 值得 尝试 的 。 
3 研究 设计 

本 文 借鉴 吴凤 慧 等 上 的 研究 思路 ， 提 出 一 种 面向 
博文 的 两 步 聚 类 算法 ,如 图 1 所 示 。 算 法 首先 构建 博 
文 参 与 者 的 共 现 矩阵 ,经 Jaccard 系数 转化 为 相关 矩阵 
后 采用 AP 聚 类 算法 呈 进 行 共 现 分 析 ; 第 二 步 将 AP 聚 
类 的 质心 作为 初始 聚 类 中 心 , 利用 K-means 算法 依据 
位 置 加 权 的 词 项 特征 完成 博文 聚 类 。 


博文 数据 集 


博文 参与 者 信息 


博文 内 容 信息 


构建 共 现 矩 阵 并 计算 
Jaccard 系 数 


文本 预 处 理 、 
词 项 位 置 加 权 


近邻 传播 算法 聚 类 
初始 聚 类 中 心 


K-means 算 法 聚 类 


图 1 基于 参与 者 共 现 分 析 改 进 的 博文 聚 类 流程 


31 博文 参与 者 共 现 分 析 
构建 参与 者 共 现 矩阵 如 式 (D) 所 示 , 其 中 Ni 表示 
同时 出 现在 博文 1 和 j 中 的 参与 者 数量 ， 当 ij 时 表示 
博文 i 的 参与 者 数量 ,可 简写 为 Ni。 
NI Ni … Nin 
Nz N2 UC Non 


. . . . (D 
Nu Nn2 TUS Na 
利用 Jaccard 系 数 (公式 (2)) 将 共 现 矩阵 转换 为 相关 
矩阵， 如 式 (3) 所 示 。 太 表示 博文 1 和 j 基于 参与 者 共 现 
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信息 的 相似 度 , Ji EXC, 博文 1 和 j 的 相似 度 越 高 。 


Jj 7 Ng &(N; * Nj- Ny) Q) 
1 Jj ee Jin 
Ja 1 … Jan Q) 
Jui Jaz sra M 


(1) AP 算法 

本 文采 用 AP 聚 类 算法 六 进行 共 现 分 析 ， 它 通过 
迭代 更 新 样本 空间 中 的 相似 关系 信息 确定 每 个 样本 的 
最 优 代表 点 ， 从 而 形成 多 个 类 簇 。 算法 一 般 以 n xn 的 
相似 度 和 矩阵 作为 输入 信息 ,并 将 对 角 线 元 素 赋 为 同一 
值 p, 称 为 偏向 参数 。p 值 大 小 决定 了 每 个 样本 最 初 被 
选 作 秘 代 表 点 的 可 能 性 , 与 簇 的 数量 成 正 相 关 ， 因 此 
可 通过 调整 p 值 设 定 复 的 数量 5 1。 算 法 通过 迭代 更 新 
RERE rG, k) 和 适 选 度 a(i, 七 实现 聚 类 , KH Jaccard fH 
似 系数 的 AP 算法 流程 如 下 : 

DÈ UARA2UR 48 HE 76 c s(i, k) 为 公式 (4)。 令 al, k)-0. 


s(i,k) = ij (4) 
Pp. zm 


@) 依 据 公 式 (5) 和 公式 (0) 对 rd k) 和 ali, k) 进 行 更 新 。 
ri, k) < s(i, k) - maxs k'e (a (i K’) si kK’)} 6 


min (0, r(k, k) 4- x max {0,r(i',k)}}, i +k 

i k)= i's.ti'g{i,k} 6 

Aon YS max{0,r(i',k)}, i-k "m 
i's.ti'zk 

图 引入 阻尼 系数 入 由 公式 (7) 消 除 可 能 出 现 的 震荡 。 


Dew(bk)= 入 xiold(k)+( 一 入 )xrGk) 7 
anew ( K) 2 A x agg (, k)+(1-À)xa(i, k) (7 


其 中 ，X(O< 和 <1) 越 大 ， 其 对 震荡 的 消除 效果 越 佳 ， 一 般 
将 其 设 为 0.9B7。 

@ 通 过 公式 (8) 确 定 每 一 个 样本 i 的 比 代 表 点 ci。 

c; €- arg max, (a(i, k) + ri, k)} (8) 

@@ 当 和 迭代 更 新 10 KEMAREN ERRER R E 
或 达到 预先 设置 的 最 大 和 迭代 次 数 时 算法 结束 ， 否 则 转 到 步 
ROR HEHA, 

(2) 选取 依据 

周 硕 等 FE3 认 为 共 现 分 析 中 经 常 采用 的 K-means 以 
及 层次 聚 类 等 算法 存在 缺陷 , 原因 是 它们 均 将 “样本 - 
样本 ?形式 的 相关 和 殖 阵 理解 为 “样本 -变量 "形式 的 二 维 
R, 据 此 构建 向 量 空间 模型 完成 罕 类 。 相 关 和 矩阵 实质 
上 已 经 体现 了 样本 基于 共 现 关系 的 相似 度 , 若 在 聚 类 
时 以 “样本 -变量 ”形式 计算 向 量 相似 度 ， 划 分 类 簇 的 


依据 将 不 再 是 直接 的 共 现 关系 , 因此 可 以 认为 二 者 在 
理念 上 存在 本 质 区 别 。 实 验证 明基 于 Pearson 系数 采用 
欧 氏 距离 进行 层次 聚 类 的 共 现 分 析 效 果 不 佳 趾 。 相 较 而 
Ti. 本 文采 用 的 AP 算法 以 相关 和 矩阵 为 输入 信息 ， 以 样 
本 共 现 信息 的 相似 关系 为 聚 类 依据 ,有效 地 改善 了 上 
述 缺 陷 。 同 时 ，AP 算法 将 所 有 样本 作为 潜在 中 心 ， 考 
虑 了 每 个 样本 与 全 部 样本 的 相似 关系 , 不 会 收敛 于 局 
部 最 优 。 相 关 研 究 还 表明 , AP 算法 比 现 有 和 多数 算法 均 
优质 、 稳 定局 。 其 质心 直观 ( 聚 类 中 心 是 确切 存在 的 具 
体 样本 ) 的 优点 也 符合 本 文 K-means 算法 选择 初始 中 
心 的 要 求 。 
3.2 基于 词 项 位 置 加 权 的 K-means 算法 

第 二 步 聚 类 选用 题名 、 标 签 、 正 文 和 评论 作为 特 
征 构建 向 量 空间 模型 ， 采 用 K-means 算法 完成 聚 类 。 
由 于 上 述 4 种 内 容 特 征 表达 主题 的 能 力 各 异 ,因此 赋 
予 不 同位 置 的 特征 项 以 不 同 权 重 。 位 置 加 权 策 略 在 
学 术 界 还 没有 统一 规范 , 不 同 研究 差别 较 大 。 韩 客 
松 等 认为 学 术 文献 标题 中 的 特征 项 比 摘要 重要 3-5 
倍 ， 比 正文 重要 10-15 fii. Li 等 61 的 研究 表明 加 入 评 
论 能 改进 博客 文本 聚 类 质量 , 但 苗 家 等 外 通过 统计 分 
析 发 现 博客 评论 中 存在 大 量 噪声 ， 且 会 出 现 主题 漂 
移 。 郭 朋 伟 等 扫 通 过 实验 发 现 博客 题名 、 标 签 、 正 文 
和 评论 的 权 值 分 别 取 2, 2, 3, 2 时 , 能 取得 较为 满意 的 
聚 类 结果 。 经 观察 与 实验 , 本 文 将 题名 、 标 签 、 正 文 
和 评论 的 权重 设 为 2: 3: 2: 1, 采用 位 置 加 权 的 TF-IDF 
方法 对 特征 词 项 进行 加 权 , 公式 如 下 : 

wid = TR dxIDR (9) 

其 中 , TF, 4 定义 为 词 项 t 在 文档 d 中 的 位 置 加 权 词 

频 , IDF, 称 为 逆 文档 频率 。 


TR, a = Nt x tfi 十 和 kxtttk + Ao X tfio + A X ther (10) 


N 
IDF, =log— 11 
t SDE (11) 


公式 (10) 中 , A A, 和、 为 分别 定义 为 题名 、 标签、 
正文 和 评论 的 权重 系数 ， tf、tfx、tf。、 二 :分别 代表 词 
项 t 在 文档 d 的 标题 、 标 签 、 正 文 和 评论 中 出 现 的 次 
数 。 公 式 (11) 中 , N 指数 据 集 中 所 有 文档 的 数目 , DF, PK 


CDhttp://blog.sciencenet.cn/blog.php. 
Qhttp://ictclas.nlpir.org/. 
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为 文档 频率 , 表示 数据 集中 所 有 出 现 过 词 项 t 的 文档 
的 数目 。 

将 3.1 PER K 个 质心 作为 文本 聚 类 K-means 
算法 的 初始 中 心 , K-means 算法 详 见 文献 [43]。 向 量 间 
的 相似 度 计算 方法 采用 欧 氏 距离 , 如 下 所 示 : 


n 
Sim(di,d;) - | Y (W, a, -W ad (12) 
k-l i 


4 实验 与 结果 分 析 


4.1 实验 数据 
科学 网 博客 是 国内 最 为 活跃 的 学 术 博 客 社区 ， 
笔者 通过 编写 爬虫 程序 获取 了 截止 2015 年 12 月 19 
日 的 600 篇 “半年 内 热门 博文 "内 容 及 其 参与 者 信息 。 
在 文本 预 处 理 中 , 调用 NLPIR 汉语 分 词 系统 ”进行 分 
词 和 词性 标注 。 韩 普 等 的 的 研究 表明 , 采用 名 词 、 动 
词 、 形 容 词 和 副词 的 组 合 特征 能 比 其 他 词性 组 合 取 得 
更 好 的 聚 类 效果 ,因此 过 滤 掉 不 属于 该 词性 组 合 的 文 
本 内 容 。 经 过 预 处 理 后 的 博文 和 参与 者 信息 共同 构成 
了 实验 数据 。 两 位 研究 人 员 分 别 独 立 对 博文 内 容 进行 
人 工分 类 , 并 对 首次 分 类 不 一 致 的 博文 征求 第 三 人 意 
见 后 归 类 ,分 类 情况 如 表 2 所 示 : 
A2 学 术 博 客人 工分 类 表 

编号 类 名 数目 编号 类 名 数目 
1 学 术科 普 76 2 庄 奖 相关 45 
3 评价 考核 62 4 人 物 纪事 49 
5 科研 心得 。 140 6 教育 教学 101 
生活 其 他 102 8 时 事 资 讯 25 


4.0 评价 指标 

本 文采 用 平均 准确 率 中 和 纯度 (Purity)" 评价 博 
文 聚 类 质量 。 

平均 准确 率 考 察 的 是 任意 两 篇 博文 人 工分 类 和 自 
动 聚 类 结果 的 一 致 性 。 相 关 定 义 见 表 3， 其 中 积极 准确 
率 PA 见 公式 (13)， 消 极 准 确 率 NA 见 公 式 (14), 平均 准 
MR AA 见 公式 (15)。 显 然 , 平均 准确 率 越 高 ， 聚 类 质 
量 越 好 。 
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表 3 分 类 聚 类 一 致 性 关系 及 其 数量 符号 
手工 分 关中 属于 一 不 类 
是 E 
EX ,二 Ad 是 积极 正确 数 (TP) 积极 错误 数 (FP) 
日 动 聚 类 中 属于 一 个 禾 s 消极 错误 数 (FN) 消极 正确 数 (TN) 


TP 


PA= (13) 
TP+FN 

NA-_ IN (14) 
FP+TN 

= (15) 


纯度 是 男 一 种 常用 的 聚 类 质量 评价 指标 , 计算 时 
将 各 簇 中 的 博文 标注 为 该 簇 中 数量 最 多 的 博文 所 在 的 
类 号 , 再 通过 正确 标注 的 博文 数 除 以 博文 集合 中 的 文 
档 总 数 求 得 聚 类 精度 ,公式 如 下 : 


Purity(Q,C) - Y max; os fe; (16) 
k 


RB, O-210,0,,-,o0,! 2g ROCHE RR 4E, 
C = (6,05, 06) 是 人 工分 类 集合 。 
4.3 ”结果 分 析 

本 文 的 主要 研究 目的 是 探索 不 同 博文 特征 对 于 到 
类 效果 的 影响 , 基于 此 ,具体 实验 包括 : 

实验 1: 参与 者 共 现 分 析 (AP 算法 "+ 题名、 标签 、 
正文 和 评论 特征 的 词 项 位 置 加 权 (K-means 算法 ); 

实验 2: 参与 者 共 现 分 析 (AP 算法 + 题名、 正文 特 
征 的 TF-IDF 加 权 算 法 (K-means 算法 ); 

实验 3: 题名 、 标签、 正文 和 评论 特征 的 词 项 位 置 
加 权 (AP 算法 ); 

实验 4: 题名 、 标 签 、 正文 和 评论 特征 的 词 项 位 置 
加 权 (K-means 算法 )， 其 中 经 典 K-means 算 法 独立 运行 
三 次 ， 聚 类 质量 取 均 值 。 

(1) 不 同文 本 特征 对 于 聚 类 效果 的 影响 

不 同文 本 特征 对 于 聚 类 效果 的 影响 可 以 通过 实 
Jy 1 和 实验 2 的 结果 分 析 得 到 ， 如 表 4 所 示 : 

表 4 实验 1 与 实验 2 的 聚 类 结果 


积极 准确 率 ”消极 准确 率 ”平均 准确 率 纯度 


cM hi 

实验 PA NA AA Purity 
实验 1 0.460940 0.866579 0.663760 0.571667 
实验 2 — 0.397634 0.776111 0.586873 0.413333 


ttp://www.psi.toronto.edu/1index.php?q-atfinity?o20propagation. 
Dhttp:// i du/index.php?q-affinity?620 i 
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MR 4 中 的 4 个 评测 指标 均 可 以 看 出 , 在 聚 类 算 
法 相同 的 情况 下 , 采用 博文 词 项 位 置 加 权 比 单纯 以 题 
名 和 正文 为 特征 的 TF-IDF 加 权 方 法 具有 更 优 的 质量 。 
这 也 证 明了 在 对 博客 等 社交 媒体 中 的 文本 进行 聚 类 
时 , 引入 标签 、 评 论 等 内 容 并 赋予 其 相应 的 特征 权重 
具有 明显 的 价值 。 其 原因 也 不 难 理解 , 标签 是 作者 对 
博文 内 容 的 凝练 概括 ,类 似 学 术 文 献 中 的 关键 词 ， 对 
表达 文本 主题 、 区 分 文本 内 容 具 有 明确 的 意义 。 而 评 
论 多 是 读者 与 作者 就 博文 内 容 展 开 的 互动 与 讨论 , 存 
在 大 量 主题 相关 的 特征 词 项 , 特别 是 在 以 图 片 、 音 乐 、 
视频 等 多 媒体 形式 存在 的 博客 中 ,评论 对 文本 聚 类 的 
指导 意义 显得 更 加 重要 。 

(2) 参与 者 共 现 信息 对 于 博文 聚 类 的 价值 

参与 者 共 现 信息 对 于 博文 聚 类 的 价值 可 以 通过 实 
验 1、 实验 3 以 及 实验 4 的 分 析 比 较 得 出 ,结果 如 表 5 
所 示 : 


表 5 实验 1、 实验 3 与 实验 4 的 聚 类 结果 


积极 准确 率 消极 准确 率 平均 准确 率 ”纯度 


实验 PA NA AA Purity 
实验 1 0.460940 ^ 0.866579 0.663760 0.571667 
实验 3 0.316383 . 0.854485 0.585434 0.496667 
1 0.382600 0.782003 0.582302 0.400000 
实验 2 0.380831 0.769077 0.574954 0.446667 
^ 3 0.395055 0.751616 0.573335 0.450000 


平均 0.386162 0.767565 0.576864 0.432222 


通过 表 5 可 以 得 到 以 下 结论 : 

参与 者 共 现 特征 明显 改进 聚 类 效果 。 表 5 中 的 PA. 
NA, AA 以 及 纯度 的 结果 均 显 示 , 在 文本 特征 项 和 加 权 方 法 
相同 的 情况 下 ,本文 提 出 的 基于 参与 者 共 现 分 析 的 文本 聚 
类 算法 明显 优 于 基于 文本 内 容 的 近邻 传播 聚 类 算法 和 经 典 
K-means 算法 , 证 实 了 通过 共 现 分 析 ， 能 有 效 地 将 博文 参与 
者 共 现 信息 中 隐 含 的 主题 关联 抽取 出 来 。 

人 @) 两 步 聚 类 算法 改善 了 K-means 算法 初始 聚 类 中 心 的 
确定 。 第 一 步 聚 类 得 到 了 优化 的 初始 聚 类 中 心 , 改进 了 聚 类 
质量 。 

OAP 算法 稳定 质 优 。 通 过 实验 3 与 实验 4 的 对 比 可 以 
看 出 经 典 K-means 算法 独立 运行 三 次 的 结果 很 不 稳定 ， 其 随 
机 选择 初始 聚 类 中 心 的 一 般 做 法 对 于 聚 类 结果 存在 显著 的 
影响 ,该 做 法 使 得 聚 类 结果 具有 较 大 的 偶然 性 , 而 AP 算法 
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对 同一 数据 集 的 多 次 运行 保持 了 稳定 的 聚 类 结果 ,该 特点 
也 保证 了 本 研究 所 提 算 法 的 稳定 性 。 从 AA 和 纯度 的 数据 还 
可 以 发 现 , AP. 算法 的 准确 性 优 于 经 典 玉 -means 算法 ,进一步 
观察 PA fe NA, AP 算法 的 PA 值 虽 然 稍 低 , 但 NA 却 明 显 高 
于 经 典 K-means 算法 。 从 而 说 明 在 本 文 这 种 类 间 区 分 度 小 的 
数据 集 上 ,AP 算法 更 能 将 不 同类 别 的 对 象 区 分 开 来 ， 形 成 较 
3345805 $^ XX. 


5 结 i& 


本 文通 过 对 参与 者 的 共 现 分 析 改 进 了 博文 聚 类 效 
果 。 实 验 结果 表明 参与 者 共 现 信息 中 隐 含 的 主题 关联 
言 息 能 够 改进 经 典 K-means 算法 初始 聚 类 中 心 的 选 
择 ， 有 效 地 提升 了 聚 类 效果 以 及 稳定 性 ; 此 外 ,博文 
词 项 位 置 加 权 以 及 文本 特征 的 综合 应 用 也 有 助 于 提升 
聚 类 质量 。 

目前 , 博文 聚 类 研究 是 学 界 的 研究 热点 ， 本 文 的 
工作 为 该 领域 提供 了 有 益 的 思路 。 不 过 , 本 研究 主要 
依据 参与 者 共 现 特征 改善 了 聚 类 效果 ,对 于 参与 者 较 
少 的 博文 将 导致 相关 天 阵 变 得 十 分 稀疏 ,不 利于 第 一 
步 聚 类 。 因 此 探索 参与 者 稀 玻 怎 阵 背景 下 的 博文 聚 类 
成 为 后 续 的 研究 主题 。 
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Clustering Blog Posts with Co-occurrence Analysis 


Gong Kaile Cheng Ying Sun Jianjun 
(School of Information Management, Nanjing University, Nanjing 210023, China) 


Abstract: [Objective] This study investigates the co-occurrence of blog comment contributors, aiming to explore their 
roles in blog posts clustering. [Methods] We developed a method of two-step clustering. First, we constructed the 
co-occurrence matrix of the contributors from different blog posts and then transform it to a correlation matrix. Then 
finished the first-step clustering with the help of Affinity Propagation (AP) algorithm. Second, we calculated the terms? 
position weight based on the centers of AP clustering, and then finished the second-stage blog post content clustering 
with K-means algorithm. [Results] The average precision and recall ratio of the proposed method were 0.66 and 0.57, 
which were significantly higher than those of the traditional ones. [Limitations] The blog comment contributors 
co-occurrence improved the quality of clustering, but it has limited value in blog posts with few comments. 
[Conclusions] The proposed method improves the quality of blog posts clustering by combining terms and contributors" 
co-occurrence. The two-step clustering method 1s a better option to select the initial cluster centers of the K-means 
algorithm. 


Keywords: Co-occurrence analysis Text clustering Blog comments contributor Initial cluster centers 


Copyright Clearance Center 推出 RightFind Music 


Copyright Clearance Center 宣布 推出 RightFind Music 一 个 能 够 帮助 用 户 从 APM 音乐 馆藏 的 50 多 万 首 授权 可 在 PPT 
和 视频 中 使 用 的 乐曲 中 查找 、 下 载 和 管理 音乐 的 搜索 和 文件 管理 网 站 。 

RightFind Music 拥有 音乐 使 用 许可 , 使 得 用 户 有 权 使 用 高 品质 的 音乐 ,以 完善 培训 、 营 销 和 销售 演示 视频 。RightFind 
Music: 简化 版 权 合 规 性 ; 帮助 用 户 查 找 、 下 载 、 共 享 和 管理 音乐 曲目 ; 通过 省 去 获得 个 别 音乐 曲目 权限 这 一 过 程 , 并 且 提 供 
可 预测 的 年 度 许可 费用 ， 帮 助 用 户 节 省 时 间 和 金钱。 

“我 们 的 客户 告诉 我 们 , 他 们 希望 能 在 公司 演示 中 使 用 流行 歌曲 , 但 这 既 耗 时 又 昂贵 。”Copyright Clearance Center 企业 
产品 和 服务 高 级 总 监 Lauren Tulloch 说 “使 用 APM Music 强大 的 搜索 和 管理 工具 , RightFind Music 为 用 户 提 供 了 最 全 面 的 素 
材 音乐 分 类 系统 , 使 用 一 个 深入 丰富 的 过 滤 系 统 ,使 用 户 能 够 快速 、 轻 松 地 为 演示 和 视频 找到 完美 的 音乐 。” 

APM Music 总 裁 Adam Taylor M: “我 们 正在 寻找 机 会 扩大 我 们 与 公司 的 合作 , 这 次 与 Copyright Clearance Center 的 合作 
正好 符合 我 们 的 预期 。 本 次 合作 完美 结合 了 Copyright Clearance Center 的 35 年 的 版 权 许可 经 验 和 APM Music 为 电影 、 电视、 
企业 制作 和 广告 领域 的 制作 人 提供 素材 音乐 的 33 年 经 验 , RightFind Music 为 Copyright Clearance Center 的 客户 提供 了 丰富 的 
音乐 目录 以 及 直观 的 管理 工具 ,帮助 用 户 轻 松 创建 、 编 辑 、 管 理 和 下 载 曲目 。 
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